O Instituto Whitehead e pesquisadores do CSAIL criaram um modelo de aprendizado de máquina para prever e gerar localização de proteínas, com implicações para a compreensão e o tratamento de doenças.

O ProtGPS prevê onde uma proteína se localizará em uma célula saudável (esquerda) e no caso de uma mutação patogênica (direita). Pontos verdes pontuados representam proteínas localizadas. Créditos: Imagens: Henry Kilgore e Lena Afeyan/Whitehead Institute
As proteínas são os cavalos de batalha que mantêm nossas células funcionando, e há muitos milhares de tipos de proteínas em nossas células, cada uma desempenhando uma função especializada. Os pesquisadores sabem há muito tempo que a estrutura de uma proteína determina o que ela pode fazer. Mais recentemente, os pesquisadores estão começando a perceber que a localização de uma proteína também é crítica para sua função. As células são cheias de compartimentos que ajudam a organizar seus muitos habitantes. Junto com as organelas bem conhecidas que adornam as páginas dos livros didáticos de biologia, esses espaços também incluem uma variedade de compartimentos dinâmicos, sem membrana, que concentram certas moléculas juntas para desempenhar funções compartilhadas. Saber onde uma determinada proteína se localiza e com quem ela colocaliza pode, portanto, ser útil para entender melhor essa proteína e seu papel na célula saudável ou doente, mas os pesquisadores não tinham uma maneira sistemática de prever essas informações.
Enquanto isso, a estrutura da proteína tem sido estudada por mais de meio século, culminando na ferramenta de inteligência artificial AlphaFold, que pode prever a estrutura da proteína a partir do código de aminoácidos de uma proteína, a sequência linear de blocos de construção dentro dela que se dobra para criar sua estrutura. AlphaFold e modelos como ele se tornaram ferramentas amplamente utilizadas em pesquisa.
As proteínas também contêm regiões de aminoácidos que não se dobram em uma estrutura fixa, mas são importantes para ajudar as proteínas a se juntarem a compartimentos dinâmicos na célula. O professor do MIT Richard Young e colegas se perguntaram se o código nessas regiões poderia ser usado para prever a localização de proteínas da mesma forma que outras regiões são usadas para prever a estrutura. Outros pesquisadores descobriram algumas sequências de proteínas que codificam a localização de proteínas, e alguns começaram a desenvolver modelos preditivos para a localização de proteínas. No entanto, os pesquisadores não sabiam se a localização de uma proteína em qualquer compartimento dinâmico poderia ser prevista com base em sua sequência, nem tinham uma ferramenta comparável ao AlphaFold para prever a localização.
Agora, Young, também membro do Whitehead Institute for Biological Research; o pós-doutorado do laboratório Young, Henry Kilgore; Regina Barzilay, a Professora Distinta da Escola de Engenharia para IA e Saúde no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e pesquisadora principal no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e colegas construíram tal modelo, que eles chamam de ProtGPS. Em um artigo publicado em 6 de fevereiro no periódico Science , com os primeiros autores Kilgore e os alunos de pós-graduação do laboratório Barzilay Itamar Chinn, Peter Mikhael e Ilan Mitnikov, a equipe interdisciplinar estreia seu modelo. Os pesquisadores mostram que o ProtGPS pode prever em qual dos 12 tipos conhecidos de compartimentos uma proteína se localizará, bem como se uma mutação associada à doença mudará essa localização. Além disso, a equipe de pesquisa desenvolveu um algoritmo generativo que pode projetar novas proteínas para se localizarem em compartimentos específicos.
“Minha esperança é que este seja um primeiro passo em direção a uma plataforma poderosa que permita que as pessoas que estudam proteínas façam suas pesquisas”, diz Young, “e que nos ajude a entender como os humanos se desenvolvem nos organismos complexos que são, como as mutações interrompem esses processos naturais e como gerar hipóteses terapêuticas e projetar medicamentos para tratar disfunções em uma célula”.
Os pesquisadores também validaram muitas das previsões do modelo com testes experimentais em células.
“Realmente me empolgou poder ir do design computacional até tentar essas coisas no laboratório”, diz Barzilay. “Há muitos artigos interessantes nessa área da IA, mas 99,9% deles nunca são testados em sistemas reais. Graças à nossa colaboração com o laboratório Young, pudemos testar e realmente aprender o quão bem nosso algoritmo está se saindo.”
Desenvolvendo o modelo
Os pesquisadores treinaram e testaram o ProtGPS em dois lotes de proteínas com localizações conhecidas. Eles descobriram que ele poderia prever corretamente onde as proteínas terminam com alta precisão. Os pesquisadores também testaram o quão bem o ProtGPS poderia prever mudanças na localização da proteína com base em mutações associadas à doença dentro de uma proteína. Muitas mutações — mudanças na sequência de um gene e sua proteína correspondente — foram descobertas como contribuintes ou causadoras de doenças com base em estudos de associação, mas as maneiras pelas quais as mutações levam aos sintomas da doença permanecem desconhecidas.
Descobrir o mecanismo de como uma mutação contribui para a doença é importante porque então os pesquisadores podem desenvolver terapias para consertar esse mecanismo, prevenindo ou tratando a doença. Young e colegas suspeitaram que muitas mutações associadas à doença podem contribuir para a doença alterando a localização da proteína. Por exemplo, uma mutação pode tornar uma proteína incapaz de se juntar a um compartimento contendo parceiros essenciais.
Eles testaram essa hipótese alimentando o ProtGOS com mais de 200.000 proteínas com mutações associadas à doença e, então, pedindo que ele previsse onde essas proteínas mutadas se localizariam e medisse o quanto sua previsão mudou para uma determinada proteína da versão normal para a mutada. Uma grande mudança na previsão indica uma provável mudança na localização.
Os pesquisadores encontraram muitos casos em que uma mutação associada à doença pareceu mudar a localização de uma proteína. Eles testaram 20 exemplos em células, usando fluorescência para comparar onde na célula uma proteína normal e a versão mutada dela acabaram. Os experimentos confirmaram as previsões do ProtGPS. No geral, as descobertas apoiam a suspeita dos pesquisadores de que a localização incorreta pode ser um mecanismo subestimado da doença e demonstram o valor do ProtGPS como uma ferramenta para entender a doença e identificar novos caminhos terapêuticos.
“A célula é um sistema tão complicado, com tantos componentes e redes complexas de interações”, diz Mitnikov. “É superinteressante pensar que, com essa abordagem, podemos perturbar o sistema, ver o resultado disso e, assim, impulsionar a descoberta de mecanismos na célula, ou mesmo desenvolver terapêuticas com base nisso.”
Os pesquisadores esperam que outros comecem a usar o ProtGPS da mesma forma que usam modelos estruturais preditivos como o AlphaFold, avançando vários projetos sobre função, disfunção e doença de proteínas.
Indo além da previsão para a geração de romances
Os pesquisadores estavam animados com os possíveis usos de seu modelo de predição, mas também queriam que seu modelo fosse além de prever localizações de proteínas existentes e permitisse que eles projetassem proteínas completamente novas. O objetivo era que o modelo criasse sequências de aminoácidos inteiramente novas que, quando formadas em uma célula, se localizariam em um local desejado. Gerar uma nova proteína que pode realmente realizar uma função — neste caso, a função de localizar um compartimento celular específico — é incrivelmente difícil. Para melhorar as chances de sucesso de seu modelo, os pesquisadores restringiram seu algoritmo para projetar apenas proteínas como aquelas encontradas na natureza. Esta é uma abordagem comumente usada no design de medicamentos, por razões lógicas; a natureza teve bilhões de anos para descobrir quais sequências de proteínas funcionam bem e quais não.
Por causa da colaboração com o laboratório Young, a equipe de aprendizado de máquina conseguiu testar se seu gerador de proteínas funcionava. O modelo teve bons resultados. Em uma rodada, ele gerou 10 proteínas destinadas a se localizar no nucléolo. Quando os pesquisadores testaram essas proteínas na célula, eles descobriram que quatro delas se localizavam fortemente no nucléolo, e outras podem ter tido leves vieses em direção a essa localização também.
“A colaboração entre nossos laboratórios tem sido muito generativa para todos nós”, diz Mikhael. “Aprendemos a falar a língua um do outro, no nosso caso aprendemos muito sobre como as células funcionam e, ao termos a chance de testar experimentalmente nosso modelo, conseguimos descobrir o que precisamos fazer para realmente fazer o modelo funcionar e, então, fazê-lo funcionar melhor.”
Ser capaz de gerar proteínas funcionais dessa forma poderia melhorar a capacidade dos pesquisadores de desenvolver terapias. Por exemplo, se um medicamento deve interagir com um alvo que se localiza dentro de um determinado compartimento, então os pesquisadores poderiam usar esse modelo para projetar um medicamento para também se localizar lá. Isso deve tornar o medicamento mais eficaz e diminuir os efeitos colaterais, já que o medicamento passará mais tempo se envolvendo com seu alvo e menos tempo interagindo com outras moléculas, causando efeitos fora do alvo.
Os membros da equipe de aprendizado de máquina estão entusiasmados com a perspectiva de usar o que aprenderam com essa colaboração para projetar novas proteínas com outras funções além da localização, o que expandiria as possibilidades de design terapêutico e outras aplicações.
“Muitos artigos mostram que eles podem projetar uma proteína que pode ser expressa em uma célula, mas não que a proteína tem uma função específica”, diz Chinn. “Na verdade, tivemos um design de proteína funcional e uma taxa de sucesso relativamente grande em comparação a outros modelos generativos. Isso é realmente empolgante para nós e algo que gostaríamos de desenvolver.”
Todos os pesquisadores envolvidos veem o ProtGPS como um começo empolgante. Eles antecipam que sua ferramenta será usada para aprender mais sobre os papéis da localização na função da proteína e da localização incorreta na doença. Além disso, eles estão interessados em expandir as previsões de localização do modelo para incluir mais tipos de compartimentos, testar mais hipóteses terapêuticas e projetar proteínas cada vez mais funcionais para terapias ou outras aplicações.
“Agora que sabemos que esse código proteico para localização existe, e que modelos de aprendizado de máquina podem dar sentido a esse código e até mesmo criar proteínas funcionais usando sua lógica, isso abre as portas para muitos estudos e aplicações potenciais”, diz Kilgore.